빅데이터분석기사 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

필기

1. 정형, 반정형, 비정형으로 구분한 빅데이터의 특성은?

1
속도
2
규모
3
다양성
4
가치

2. 빅데이터의 위기 요인이 아닌 것은?

1
사생활 침해
2
데이터 오용
3
책임 원칙 훼손
4
인간과 인간 연결 가능

3. 다음 중 기업의 분석 수준 진단에 대한 서술로 틀린 것은?

1
준비형: 데이터 분석을 위한 낮은 준비도와 낮은 성숙도
2
정착형: 조직 및 인력, 분석 업무, 분석 기법을 내부에 오픈
3
확산형: 6가지 분석 구성요소를 모두 갖춰 지속적 확산이 가능
4
도입형: 업무 기법은 충분하나, 조직 인력이 부실

4. 데이터 분석 조직에 관한 설명으로 틀린 것은?

1
기능형은 전사의 핵심 업무를 분석하지 못한다.
2
집중구조는 별도의 분석 조직이 존재하므로 협업 조직과의 업무 중복 가능성이 없다.
3
분산구조는 전담 조직 인력을 협업부서에 배치하므로 신속한 업무에 적합하다.
4
기능형은 별도로 분석조직이 없다.

5. 분석준비도의 진단 영역으로 틀린 것은?

1
분석 성과 평가
2
분석 업무
3
분석 인력
4
분석 기법

6. 다음 중 데이터 거버넌스의 구성요소에 해당하지 않는 것은?

1
원칙
2
IT인프라
3
프로세스
4
조직

7. 데이터 사이언스에 대한 설명으로 맞는 것은?

1
가능한 많은 데이터를 모으기만 하면 의미가 도출된다.
2
특정한 상관관계가 중요시되던 과거와 달리, 인과관계를 통한 인사이트 도출이 점점 확산되고 있다.
3
데이터의 품질과 상관없이 데이터의 양이 많아지면 인사이트를 도출하기 용이해진다.
4
의학, 공학 등 다양한 연구 분야에서 적용된다.

8. 분산 파일 시스템에 대한 설명으로 틀린 것은?

1
네트워크를 통해 물리적으로 다른 위치에 있는 여러 컴퓨터에 자료를 분산 저장하는 시스템이다.
2
마치 로컬 시스템에서 사용하는 것처럼 동작한다.
3
데이터 가용성을 향상시키지만, 네트워크를 사용하기 때문에 노드들 간에 데이터를 전송할 때 데이터가 손실되거나 누락될 가능성이 있다.
4
대표적인 분산 파일 시스템은 하둡으로, 대용량 파일을 파일 단위로 데이터 노드에 저장한다.

9. 다음 중 데이터 웨어하우스와 데이터 마트에서 사용하기 적합한 데이터 수집 기술은?

1
FTP
2
HTTP
3
Open API
4
DB to DB

10. 맵리듀스 패턴 중에 다른 데이터와 연결하여 분석하는 패턴은 무엇인가?

1
디자인 패턴
2
요약 패턴
3
조인 패턴
4
필터링 패턴

11. 다음 중 머신러닝과 딥러닝에 대한 설명으로 틀린 것은?

1
머신러닝은 딥러닝의 일부이다.
2
머신러닝은 주어진 데이터 패턴을 학습하고 유추하는 것이다.
3
머신러닝 학습방법으로는 지도, 비지도, 강화학습이 대표적이다.
4
머신러닝을 개선하여 딥러닝으로 발전하였다.

12. 공공데이터와 같이 조직 외부의 데이터를 사용할 때의 장점으로 적절한 것은?

1
비용이 저렴하다.
2
내부 데이터보다 보안이 좋다.
3
데이터 선택의 폭이 넓다.
4
데이터 소유권을 가질 수 있다.

13. 데이터 분석으로 얻고자 하는 개선사항은 언제 도출하는 것이 적절한가?

1
도메인 이슈 도출
2
프로젝트 계획 수립
3
모델 개발
4
분석 목표 수립

14. 분석마스터 플랜에 대한 설명으로 옳은 것은?

1
좁은 범위의 특정 주제에 대해 텍스트를 실행함으로써 빠르게 문제를 해결해나가는 방법이다.
2
모든 과정을 반복 수행한다.
3
분석 로드맵은 중장기적 관점의 수행 계획을 수립하는 과정을 의미한다.
4
프레임워크보다는 단기 과제성 계획을 수립한다.

15. 데이터 전처리는 어느 단계에서 수행하는 것인가?

1
분석 기획
2
데이터 분석
3
시스템 구현
4
데이터 준비

16. 탐색적 데이터 분석에 관한 설명으로 틀린 것은?

1
주성분 분석은 EDA가 아니다.
2
시각화 툴을 사용할 수 있다.
3
데이터 구조를 가정한다.
4
분석 모델을 만들기 위한 과정으로 필요하다.

17. 데이터 추출과 저장을 위한 기술로 맞는 것은?

1
ETL
2
ODS
3
DW
4
Data Mart

18. 다음 중 노이즈를 제거하는 방법으로 맞는 것은?

1
정규화
2
표준화
3
일반화
4
평활화

19. 네트워크를 통해서 호스트와 호스트 간에 데이터를 전송하는 방식은 무엇인가?

1
파일 전송 프로토콜
2
분산 파일 시스템
3
공유 데이터베이스
4
네트워크 데이터베이스

20. 다음 중 비정형 데이터에 관한 설명으로 맞는 것은?

1
데이터 스키마를 지원한다.
2
주로 DB to DB를 사용해 수집한다.
3
NoSQL을 사용한다.
4
데이터 레이크보다 데이터 웨어하우스를 사용한다.

21. 데이터 전처리 기법에 대한 설명으로 틀린 것은?

1
데이터 정제: 결측값, 노이즈, 이상값 등 데이터 오류 요인을 제거한다.
2
데이터 통합: 정제된 다수의 데이터를 통합
3
데이터 축소: 노이즈 제거를 위해 정규화한다.
4
데이터 변환: 정규화 등으로 분석이 편하도록 한다.

22. 데이터 정제에 대한 설명으로 틀린 것은?

1
데이터를 사용하기 쉽게 변환
2
결측값 대체
3
이상값 제거
4
노이즈 교정

23. 결측값 처리 방법에 대한 설명으로 틀린 것은?

1
완전삭제법: 결측치 부분만 없애지 않고, 결측값이 있는 데이터 행 전체를 삭제
2
평균대치법: 관측된 값의 평균값으로 대치
3
회귀대치법: 회귀식의 예측값으로 결측치를 대체
4
다중대치법: 통계량에 확률값을 부여하는 방법을 이용

24. 이상값 처리에 대한 설명으로 옳은 것은.?

1
이상값은 빈도에 비해 영향력이 작으므로 분석에서는 무시한다.
2
삭제 시 데이터가 작아져 분산은 커지고, 편향이 발생할 확률은 낮아진다.
3
결측값 처리에서 사용하는 단순대치법과 다중대치법은 사용할 수 없다.
4
평균값 대체도 결측값 대체와 같이 신뢰성이 저하되지 않는다.

25. 데이터 이상값 발생 원인으로 틀린 것은?

1
측정 오류
2
처리 오류
3
표본 오류
4
보고 오류

26. 회귀진단 시 이상값 및 영향값 탐색 방법으로 맞는 것은?

1
라쏘회귀
2
AIC(Akaike Information Criterion)
3
사분위수 범위
4
레버리지

27. 다음 중 연속형 변수가 아닌 것은?

1
키
2
실내 온도
3
MBTI
4
책 두께

28. 파생변수에 대한 설명으로 틀린 것은?

1
기존 변수에 특정 조건이나 함수를 활용하기도 한다.
2
유의미한 특성이 객관적으로 반영되어야 한다.
3
결측값을 주변 값으로 채우기도 한다.
4
다수 필드 내에 시간 종속적인 데이터를 피봇해서 사용하는 방법도 있다.

29. 최소-최대 정규화 시 세 학생의 성적 (60, 70, 80) 합은?

1
0.5
2
1.0
3
1.5
4
2.0

30. 다음 중 독립변수 12개와 절편1을 포함하는 모델이 있다. 변수 1개당 3가지의 범주를 값으로 갖는다면 회귀모수의 개수는?

1
24
2
25
3
35
4
37

31. 클래스 불균형에 대한 설명으로 틀린 것은?

1
이상값 대체는 결측값을 처리할 경우와 같은 신뢰도 문제를 발생시키지 않는다.
2
언더샘플링 혹은 오버샘플링으로 해결할 수 있다.
3
클래스 개수와는 무관하다.
4
무게균형으로는 해결 불가하다.

32. 다음 중 인과관계 분석에 대한 설명으로 옳은 것은?

1
변수 간의 상관성을 확인한다.
2
해석을 포함하고 있지 않다.
3
이상값 파악이 용이하다.
4
독립변수와 종속변수 간의 인과관계를 분석한 것이다.

33. 다음 시계열 분포도에 대한 설명으로 맞는 것은?

A-B-C >>> V 자 시계열 분포도

1
A-B, B-C로 나누면 의미를 도출할 수 있다.
2
B-C 구간에서 음의 관계다.
3
A-B 구간에서 기울기가 커지고 B-C구간에서 기울기가 작아진다.
4
A-B-C 구간은 산포도가 크다.

34. 산포도에 대한 설명으로 틀린 것은?

1
사분위수 범위는 제3분위수에서 제1분위수를 뺀 부분까지이다.
2
왜도는 분포의 기울어진 정도를 설명한 통계량이다.
3
첨도는 그래프 양쪽의 뾰족한 정도를 뜻한다.
4
변동계수의 값이 작으면 상대적인 차이가 작고, 클수록 상대적인 차이가 크다는 것을 의미한다.

35. 다음 중 기술통계에서 사용하는 개념으로 틀린 것은?

1
범위는 min, max 값만 고려한다.
2
편차의 절댓값이 크면 평균에서 멀리 떨어져 있는 값이고, 작으면 평균에서 가까운 값이다.
3
일반적으로 표본의 수가 많을수록 표준오차는 작아진다.
4
사분위수는 Q3-Q1이다.

36. 다음 중 단위 시간 안의 사건 발생 횟수를 나타낸 분포는?

1
포아송분포
2
기하분포
3
베르누이분포
4
정규분포

37. 다음 중 틀린 것은?

1
표본분산은 표본의 분산을 의미하며, 관측값에서 표본평균을 빼고 제곱한 값을 모두 더한 뒤에 그 값을 n-1로 나눈 값이다.
2
추출한 표본의 n이 충분히 크면(일반적으로 30이상) 모집단 분포의 모양에 상관없이 추출된 표본들의 평균의 분포는 표준정규분포를 따른다.
3
표본평균의 분포는 특정한 모집단에서 동일한 크기로 표본을 뽑아서 각각의 표본들의 평균을 계산했을 때, 그 평균들의 확률분포를 의미한다.
4
모집단을 통해 표본집단을 추론한다.

38. 정규분포의 설명이 아닌 것은?

1
왜도가 3, 첨도가 0이다.
2
직선 x=u에 대하여 대칭인 종 모양의 곡선이다.
3
곡선과 x축으로 둘러싸인 영역의 넓이는 1이다. (확률의 총합은 100%이다.)
4
곡선의 모양은 표준편차가 일정할 때, 평균이 변하면 대칭축의 위치와 곡선의 모양이 바뀐다.

39. 다음 값의 평균과 표본분산을 구하면?

2, 4, 6, 8, 10

1
표본분산: 6, 평균: 10
2
표본분산: 6, 평균: 8
3
표본분산: 10, 평균: 6
4
표본분산: 10, 평균: 8

40. 머신러닝(기계학습)에 대한 설명으로 틀린 것은?

1
머신러닝은 대표적으로 지도학습과 통계분석으로 나눌 수 있다.
2
지도학습은 목적에 따라 분류와 예측으로 나눈다.
3
비지도학습 유형으로는 군집화, 차원 축소, 연관규칙이 있다.
4
머신러닝과 통계분석은 결과물에 대한 공식을 도출할 수 있다.

41. 선형회귀분석의 가정에 대한 설명으로 틀린 것은?

1
오차항은 서로 독립이다.
2
오차항의 정규성 검정 기법으로는 정규성 T-검정 등이 있다.
3
오차항이 있는 선형관계로 정의한다.
4
독립변수와 종속변수의 선형성을 만족한다.

42. 회귀분석에 대한 설명으로 틀린 것은?

1
교호작용이 일어나면 회귀식의 형태나 회귀계수에 변화가 있을 수 있다.
2
회귀계수를 추정하기 위해 최소제곱법을 사용한다.
3
분산팽창계수가 10 이상일 때, 다중공선성이 존재하지 않는다.
4
회귀계수의 유의성을 판단하기 위해서 t-검정을 수행할 수 있다.

43. 다음 설명 중 틀린 것은?

1
결정계수는 종속변수의 분산 중에서 독립변수로 설명되는 비율을 의미한다.
2
독립변수가 적어지면 결정계수가 작아진다.
3
회귀계수는 0~1의 범위를 가진다.
4
결정계수 값이 클 수록 회귀 모델의 유용성이 높다고 할 수 있다.

44. 괄호 안에 공통적으로 들어갈 알맞은 단어를 고르면?

다중공선성은 회귀분석에서 독립변수들 간에 높은 상관관계가 있는 경우 발생하는 현상으로, 독립변수들 간의 강한 선형 관계로 인해 회귀계수의 추정이 불안정해지는 문제이다. 다중공선성을 평가하기 위해 주로 사용되는 지표 중 하나가 (           )이다. (           )은/는 각 독립변수의 설명력을 평가하는 지표로, 해당 독립변수를 다른 독립변수들로 선형회귀하여 얻은 결정계수의 증가 정도를 나타낸다.

1
Student
2
Mallow's Cp
3
VIF
4
Cook's Distance

45. 다음 조건에 대한 값을 구하면?

흡연자 100명 중 폐암 10명, 비흡연자 100명 중 폐암 2명 발생할 때, 흡연 여부에 대한 오즈비

1
약 3.21
2
약 4.32
3
약 5.45
4
약 6.78

46. 다음 회귀분석 모델 평가에 대한 절차로 맞는 것은?

1
독립변수 검정 > 회귀모델 유의성 검정 > 회귀계수 추정 > 예측력 평가
2
회귀계수 추정 > 예측력 평가 > 회귀모델 유의성 검정 > 독립변수 검정
3
회귀계수 추정 > 독립변수 검정 > 예측력 평가 > 회귀모델 유의성 검정
4
독립변수 검정 > 회귀계수 추정 > 회귀모델 유의성 검정 > 예측력 평가

47. 의사결정나무에 대한 설명으로 틀린 것은?

1
주요 알고리즘으로 CART와 C4.5가 있다.
2
분리기준으로 정보이득, 지니계수, 엔트로피를 사용한다.
3
알파컷을 사용하여 과대적합을 방지할 수도 있다.
4
알파컷이 작을수록 나무의 깊이도 얕아진다.

48. 다음 중 학습률에 대한 설명으로 맞는 것은?

1
손실 함수가 크면 가중치를 조금만 수정하면 된다.
2
반복작업을 통해 조금씩 최적화하며 학습률을 수정하면서 진행한다.
3
학습률이 매우 클 경우 학습시간은 오래걸리나, 증감이 작아서 최소 손실 점수를 찾기 쉽다.
4
학습률에 배치 크기와 반복횟수는 무관하며 고려하지 않는다.

49. 인공신경망 학습 시 과적합 방지 방법으로 틀린 것은?

1
입력 노드 수를 줄인다.
2
드롭아웃을 실행한다.
3
규제를 진행한다.
4
학습 데이터에 대해서만 평가를 진행한다.

50. 원 핫 인코딩에 대한 설명으로 틀린 것은?

1
서로 다른 단어의 내적은 0이다.
2
각 값이 독립적인 벡터로 표현된다.
3
범주형 데이터를 수치형으로 변환하는 기법이다.
4
벡터의 차원을 줄일 수 있어 차원 축소에 활용한다.

51. 다음 중 군집 수 k를 직접 설명하지 않아도 되는 모델은?

1
K-MEDIAN
2
MIXTURE MODEL
3
K-MEANS
4
ENSEMBLE MODEL

52. 주성분 분석에 대한 설명으로 틀린 것은?

1
주어진 데이터의 분산을 최대화하는 방향으로 새로운 좌표축을 찾아내고, 이를 통해 데이터를 저차원 공간으로 투영한다.
2
공분산 행렬의 고유벡터는 데이터가 어떤 방향으로 분산되었는지를 나타낸다.
3
고윳값을 계산하기 위해 공분산 행렬을 계산한다.
4
다수의 n차원 데이터에 대해 데이터 중심으로부터 데이터의 응집력이 적은 n개의 직교 방향을 분석하는 방법이다.

53. 범주형 종속변수 예측 모델이 아닌 것은?

1
의사결정나무
2
다중 로지스틱 회귀분석
3
선형 회귀
4
다층 퍼셉트론

54. 괄호 안에 공통적으로 들어갈 단어로 적절한 것은?

(                    )은/는 시계열 데이터에서 특정 시차 (log)에 대한 데이터 값들의 상관관계를 분석하기 위해 사용되는 함수다. 시계열 데이터는 시간에 따라 관측된 데이터 포인트들로 이뤄져 있다. (                      )은/는 이러한 데이터의 시차에 따른 상관관계를 나타내는 지표를 계산한다.

1
자기상관성 함수
2
시계열 분해
3
실루엣 계수
4
회귀계수

55. 다음 중 성격이 다른 모델을 하나 고르면?

1
RNN
2
LSTM
3
GRU
4
CNN

56. 다음 중 틀린 것을 모두 고르면?

A. 시계열은 종단면 데이터로 여러 대상에 대해 시간에 따라 측정한 데이터를 표시한다.
B. 시계열 분해를 통해 데이터에서 추세를 분해하지 못한다.
C. 백색잡음은 규칙을 가진 잡음을 나타낸다.
D. 정상성의 조건으로 모든 시점에 대해 일정한 평균을 가진다.
E. AR은 과거로부터 현재까지의 시계열 자료를 대상으로 일정 기간별 이동평균을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법이다.

1
A, B
2
B, C
3
B, C, E
4
B, C, D, E

57. 로지스틱 회귀분석에서 관심범주(Positive)의 확률 추정값 P는 다음과 같이 나타낼 수 있다. 이에 대한 설명으로 맞는 것은?

관심범주: P(성공 k개의 독립변수)>= c, 0

1
c=0이면, 민감도와 특이도의 차이는 1이다.
2
c=0.5이면, 민감도와 특이도의 차이는 1이다.
3
c=0이면, 민감도와 정밀도의 차이는 1이다.
4
c=0.5이면, 민감도와 정밀도 차이는 0이다.

58. 혼동행렬에 대한 설명으로 틀린 것은?

1
정확도의 식은 TP+TN/TP+TN+FP+FN 이다.
2
정밀도의 식은 TP/TP+FP
3
F1 스코어는 정밀도와 재현율의 기하평균이다.
4
재현율의 식은 TP/TP+FN

59. 다음 수식에 대한 설명으로 옳은 것은?

1
Logit 변환에 대한 수식이다.
2
지수 변환에 대한 수식이다.
3
회귀분석과는 무관하다.
4
X가 1단위 증가하면 e^y만큼 증가한다.

60. 분석모형 평가지표에 대한 공식으로 틀린 것은?

1
MAE =
2
MAPE =
3
MSE =
4
RMSE =
5
모두 맞음

필기

61. 다음 그림이 나타내는 시각화 기법은?

1
히트맵
2
트리맵
3
영역차트
4
산점도

62. 소득분포 조사 시 왜도가 양수인 종 모양의 분포를 보였다. 그런데 이때 일부 응답값이 누락되어 대치하는 경우 대푯값으로 옳은 것은?

1
최솟값
2
최댓값
3
평균
4
중앙값

63. 다음 그림이 나타내는 시각화 기법은?

1
히스토그램
2
플롯맵
3
산점도
4
버블차트

위키해설

클릭하면 보입니다.

히스토그램 산점도

64. 다음 막대그래프에 대한 전처리 기법으로 적절한 것은?

1
클래스 불균형 처리
2
더미 변수화
3
이상치 제거
4
차원 축소

65. 아래 를 참고했을 때 (ㄱ)에 들어갈 적절한 값은?

A 공장의 하루 평균 제품 생산량을 추정하려고 한다. 50일 동안 일일제품 생산량을 기록한 결과 표본평균=110톤, 표본표준편차=8톤이다. 이때 하루 평균 제품 생산량에 대한 95% 신뢰구간은 다음과 같이 계산할 수 있다.
[110-(ㄱ)*8/root(50), 110+(ㄱ)*8/root(50)]

1
0.5987
2
0.6915
3
1.645
4
1.96

66. 다음 중 그림과 같이 너무 작은 경우 학습 속도가 너무 느려지고, 너무 큰 경우 최적해를 찾기 어려운 특성을 가진 초매개변수 개념으로 옳은 것은?

1
Batch Size
2
Learning rate
3
Epoch
4
Hidden Layer

67. 다음 중 ROC 그래프의 설명으로 틀린 것은?

1
민감도가 1, 특이도가 0인 점을 지난다.
2
민감도가 0, 특이도가 1인 점을 지난다.
3
가장 이상적인 그래프는 민감도가 1, 특이도가 1인 점을 지난다.
4
x축의 값이 증가할수록 특이도가 증가하는 그래프이다.

68. 다음 중 아래의 수식이 설명하는 규제 선형 회귀 종류로 옳은 것은?

1
라쏘회귀(Lasso Regression)
2
릿지회귀(Ridge Regression)
3
엘라스틱넷 회귀(Elastic-net Regression)
4
로지스틱 회귀(Logistic Regression)

69. 아래 표는 날씨에 대한 사건을 나열한 표이다. 다음 중 조건부 확률인 P(비 | 건조함)의 확률 값으로 옳은 것은?

|    비옴   |    비 안옴
건조함           2               8
습함               5               5

1
0.1
2
0.2
3
0.3
4
0.4

70. 다음 그래프에 대한 설명으로 옳은 것은?

1
왜도 > 0, 최빈값 < 중위수 < 평균
2
왜도 > 0, 평균 < 중위수 < 최빈값
3
왜도 < 0, 중위수 < 최빈값 < 평균
4
왜도 < 0, 최빈값 < 중위수 < 평균

71. 다음은 1973년 미국의 지역별 강력 범죄율 데이터를 주성분 분석하여 도출된 결과다. 제 3주성분을 기준으로 했을 때의 누적 기여울은 얼마인가?

Importance of components:
                                               Comp.1   Comp.2   Comp.3    Comp.4
Standard deviation        1.57487   0.99486   0.59712   0.416449
Proportion of Variance 0.62006   0.24744   0.08914   0.043357
Cumulative Proportion 0.62006  0.86750   0.95664   1.000000

1
85.69%
2
95.66%
3
90.00%
4
99.99%

빅데이터분석기사 23년 6회차

필기

1. 정형, 반정형, 비정형으로 구분한 빅데이터의 특성은?

2. 빅데이터의 위기 요인이 아닌 것은?

3. 다음 중 기업의 분석 수준 진단에 대한 서술로 틀린 것은?

4. 데이터 분석 조직에 관한 설명으로 틀린 것은?

5. 분석준비도의 진단 영역으로 틀린 것은?

6. 다음 중 데이터 거버넌스의 구성요소에 해당하지 않는 것은?

7. 데이터 사이언스에 대한 설명으로 맞는 것은?

8. 분산 파일 시스템에 대한 설명으로 틀린 것은?

9. 다음 중 데이터 웨어하우스와 데이터 마트에서 사용하기 적합한 데이터 수집 기술은?

10. 맵리듀스 패턴 중에 다른 데이터와 연결하여 분석하는 패턴은 무엇인가?

11. 다음 중 머신러닝과 딥러닝에 대한 설명으로 틀린 것은?

12. 공공데이터와 같이 조직 외부의 데이터를 사용할 때의 장점으로 적절한 것은?

13. 데이터 분석으로 얻고자 하는 개선사항은 언제 도출하는 것이 적절한가?

14. 분석마스터 플랜에 대한 설명으로 옳은 것은?

15. 데이터 전처리는 어느 단계에서 수행하는 것인가?

16. 탐색적 데이터 분석에 관한 설명으로 틀린 것은?

17. 데이터 추출과 저장을 위한 기술로 맞는 것은?

18. 다음 중 노이즈를 제거하는 방법으로 맞는 것은?

19. 네트워크를 통해서 호스트와 호스트 간에 데이터를 전송하는 방식은 무엇인가?

20. 다음 중 비정형 데이터에 관한 설명으로 맞는 것은?

21. 데이터 전처리 기법에 대한 설명으로 틀린 것은?

22. 데이터 정제에 대한 설명으로 틀린 것은?

23. 결측값 처리 방법에 대한 설명으로 틀린 것은?

24. 이상값 처리에 대한 설명으로 옳은 것은.?

25. 데이터 이상값 발생 원인으로 틀린 것은?

26. 회귀진단 시 이상값 및 영향값 탐색 방법으로 맞는 것은?

27. 다음 중 연속형 변수가 아닌 것은?

28. 파생변수에 대한 설명으로 틀린 것은?

29. 최소-최대 정규화 시 세 학생의 성적 (60, 70, 80) 합은?

30. 다음 중 독립변수 12개와 절편1을 포함하는 모델이 있다. 변수 1개당 3가지의 범주를 값으로 갖는다면 회귀모수의 개수는?

31. 클래스 불균형에 대한 설명으로 틀린 것은?

32. 다음 중 인과관계 분석에 대한 설명으로 옳은 것은?

33. 다음 시계열 분포도에 대한 설명으로 맞는 것은?

34. 산포도에 대한 설명으로 틀린 것은?

35. 다음 중 기술통계에서 사용하는 개념으로 틀린 것은?

36. 다음 중 단위 시간 안의 사건 발생 횟수를 나타낸 분포는?

37. 다음 중 틀린 것은?

38. 정규분포의 설명이 아닌 것은?

39. 다음 값의 평균과 표본분산을 구하면?

40. 머신러닝(기계학습)에 대한 설명으로 틀린 것은?

41. 선형회귀분석의 가정에 대한 설명으로 틀린 것은?

42. 회귀분석에 대한 설명으로 틀린 것은?

43. 다음 설명 중 틀린 것은?

44. 괄호 안에 공통적으로 들어갈 알맞은 단어를 고르면?

45. 다음 조건에 대한 값을 구하면?

46. 다음 회귀분석 모델 평가에 대한 절차로 맞는 것은?

47. 의사결정나무에 대한 설명으로 틀린 것은?

48. 다음 중 학습률에 대한 설명으로 맞는 것은?

49. 인공신경망 학습 시 과적합 방지 방법으로 틀린 것은?

50. 원 핫 인코딩에 대한 설명으로 틀린 것은?

51. 다음 중 군집 수 k를 직접 설명하지 않아도 되는 모델은?

52. 주성분 분석에 대한 설명으로 틀린 것은?

53. 범주형 종속변수 예측 모델이 아닌 것은?

54. 괄호 안에 공통적으로 들어갈 단어로 적절한 것은?

55. 다음 중 성격이 다른 모델을 하나 고르면?

56. 다음 중 틀린 것을 모두 고르면?

57. 로지스틱 회귀분석에서 관심범주(Positive)의 확률 추정값 P는 다음과 같이 나타낼 수 있다. 이에 대한 설명으로 맞는 것은?

58. 혼동행렬에 대한 설명으로 틀린 것은?

59. 다음 수식에 대한 설명으로 옳은 것은?

60. 분석모형 평가지표에 대한 공식으로 틀린 것은?

필기

61. 다음 그림이 나타내는 시각화 기법은?

62. 소득분포 조사 시 왜도가 양수인 종 모양의 분포를 보였다. 그런데 이때 일부 응답값이 누락되어 대치하는 경우 대푯값으로 옳은 것은?

63. 다음 그림이 나타내는 시각화 기법은?

64. 다음 막대그래프에 대한 전처리 기법으로 적절한 것은?

65. 아래 를 참고했을 때 (ㄱ)에 들어갈 적절한 값은?

66. 다음 중 그림과 같이 너무 작은 경우 학습 속도가 너무 느려지고, 너무 큰 경우 최적해를 찾기 어려운 특성을 가진 초매개변수 개념으로 옳은 것은?

67. 다음 중 ROC 그래프의 설명으로 틀린 것은?

68. 다음 중 아래의 수식이 설명하는 규제 선형 회귀 종류로 옳은 것은?

69. 아래 표는 날씨에 대한 사건을 나열한 표이다. 다음 중 조건부 확률인 P(비 | 건조함)의 확률 값으로 옳은 것은?

70. 다음 그래프에 대한 설명으로 옳은 것은?

71. 다음은 1973년 미국의 지역별 강력 범죄율 데이터를 주성분 분석하여 도출된 결과다. 제 3주성분을 기준으로 했을 때의 누적 기여울은 얼마인가?